最佳实践 | 银行网络专家分享:金融行业如何建设云环境下的网络流量采集项目?
【摘要】本文内容来自社区交流分享,由社区某银行网络专家整理,从需求分析、方案设计、工程实施、项目运维四个方面,完整解读金融行业网络流量采集项目建设过程中的重点及难点,希望藉此帮助金融行业同行解决相关问题。
一、需求分析阶段
随着虚拟化和云技术的不断发展,金融行业数据中心越来越多系统从原来的物理机迁移至云平台,数据中心的虚拟化东西流量呈显著增长。但是传统物理流量采集网络无法对虚拟化环境的流量进行直接采集,导致虚拟化环境中的业务流量成为盲区,使虚拟化环境中的业务应用发生问题时,无法直接提取流量进行分析。面对虚拟化环境流量采集需求,必须与时俱进引入新的虚拟化流量采集技术,使虚拟化环境流量可提取可分析。
某行已经在云环境中完成虚拟化流量采集环境的试点部署工作,虚拟化流量采集架构主要由流量采集管理平台和部署在云平台物理机上的采集虚拟机两部分组成,如图二。其中流量采集管理平台负责采集虚拟机的部署、虚拟化流量采集策略的配置下发及采集虚拟机到采集物理设备的通道建立等管理工作;而采集虚拟机部署在云平台每台物理机上,用于采集同一物理机中的虚拟机之间交互的流量,并将流量传送至流量采集物理设备进行过滤和分配。
随着科技在金融行业发展的推力越来越大,很多金融行业可能面临如下问题:
(1)金融业的系统承载着众多重要和关键业务,系统的稳定运行是金融业务迅速发展的基础。系统的准确实时的监控为系统健康运行提供了有力保障,而基于系统业务数据包的监控目前是最能反应业务真实运行情况的方法,被认为是系统和业务监控的重要环节。
(2)当金融业生产网络发生大流量传输引起带宽瞬间拥堵丢包、应用系统交易缓慢或系统交易成功率降低,需要用抓包手段来分析原因,但是由于一些网络部署架构或者交换机产品自身原因,难以及时捕获到抓包所需的交易全路径镜像流量,给故障分析带来挑战。
(3)随着金融业网络安全、应用性能监控以及各类审计系统的流量需求越来越多,如BPC应用交易监控、IDS入侵检测系统、邮件以及客服录音审计等系统,传统的网络设备上没有足够的能力提供所需流量,盲目在交换机做大量镜像可能对生产交换机带来隐患。
而以上需求和问题均通过流量采集网络解决。网络流量采集是将数据中心生产网络设备各关键节点的镜像流量进行采集汇聚,并经过加工处理后发送给指定分析设备的网络系统。通过流量采集网络提取数据已经成为各个监控和安全系统进行流量分析的必不可少一个环节,也是监控和安全系统发挥其检测防御能力的基础平台。流量采集网的功能如下:
(1)流量采集网络进行流量集中采集汇总去重,并按需对采集到的数据基于硬件进行L2-L4层灵活过滤后将数据分配给各个基于流量分析的后台系统。
(2)流量采集网络通过集群组网将各中心流量统一汇总,物理网络流量和虚拟网络流量也可统一采集,各流量分析系统均从流量采集网络提取流量即可。
(3)流量采集网络在网络设备镜像与流量分析系统增加一个中间层,实现了网络流量的集中管理和流量分析系统的集约化管理,可以实现工具的弹性扩展。
网络流量采集项目的成本主要包括采购成本和项目实施管理成本。其中项目采购成本是指采购流量采集设备成本。项目实施管理成本是指采购流量采集设备商务流程准备、流量采集需求统计和流量采集网络新架构设计和流量采集网络实施和管理的成本。可能关联成本是指如果没有流量采集系统,监测系统(网络性能监测、应用性能监测、网络安全监测等)的投入将是一个非常巨大的投资,将是无法实现的监测,只能监测重点区域,无法实现全网的可视性,这样的情况出现问题时,有些区域是无法监测的,这样的损失也是无法估量的。
某行之前选择的流量采集产品,在使用过程中发现该产品的基于接口进行数据包处理性能较低且设备不稳定,对各个监测系统的数据稳定性和准确性都带来了隐患。因此通过对行业内的同类产品进行的测试和对比分析,后选择了另一款产品的解决方案,该产品基于背板进行数据处理性能较高且设备稳定性较强,同时提供流量采集分层架构,分层架构适合于数据中心的流量采集设计及扩展,可以较好的控制后期的成本。
某行采购流量采集产品中购买物理流量采集产品成本占比89%,虚拟化和软件流量采集产品占比11%。从流量采集网络架构上分析,流量采集层产品采购成本占比42%,流量汇聚层产品采购占比16%,流量分配层和高级功能许可采购占比42%。
(1)单台设备部署vs集群部署
流量采集技术有单台设备的解决方案和集群的解决方案,单台设备的规则配置都是基于一个一个设备的配置,当规则过多时,跨设备的流量管理会是运维和排障的难点,而集群部署不仅解决了管理维护和排障的问题,同时提供了对整体流量的管理。
(2)高级功能引擎vs高级功能接口
高级功能是流量采集中越来越重要的功能,能够帮助各分析系统实现按需的切包、去除标签和去除重复包的流量优化,提升各分析系统处理效率,目前高级功能实现主要有基于高性能计算的引擎模式和基于固定芯片固定接口的模式,其区别在于基于接口高级功能处理仅能够对连接于该接口的工具提供高级功能流量处理,而基于引擎的高级功能处理可以实现对任意接口连接的流量分析系统所需流量均可以实现高级功能处理。简单的说就是接口的高级功能只能独占资源,而基于引擎的高级功能处理可以提供共享资源。
(3)虚拟化流量采集
虚拟化环境中流量未被物理网络的监测探针捕获使监测虚拟化系统带来难点,而目前能够实现虚拟化环境内流量监测的解决方案分为以下三类:
(a)基于agent部署,需要在每一个虚拟机上安装agent代理软件;
(b)在宿主机上针对每个流量分析系统安装监测采集虚拟机;
(c)在每台虚拟化环境的物理机上安装统一的采集虚拟机,采集流量汇总至物理流量采集网络,再分发至各个流量分析系统;
上述三种流量采集方式中,基于agent很难大规模采用,因为一旦采集进程与虚拟机内的应用冲突将会影响到业务系统。第二种方式中每个宿主机安装多个监测系统的方式系统资源开销太大,试想如果有7套流量分析系统,就需要在宿主机上安装7个监测采集虚拟机,这种资源开销是很难接受的,而且不是所有流量分析系统都有采集虚拟机版本。第三种方式是资源开销较小的方式,也能够同物理网络中的流量合并后发送至各流量分析系统,这样在流量分析系统上可以查看到东西南北方向的所有流量。
流量采集网络是流量可视化的基础架构,采集生产网络中的所有流量,包括物理网络流量和虚拟化环境网络流量。通过流量采集网络自身的过滤和流量高级功能处理,将加工后的流量分发至各流量分析系统,因此流量采集网络方案要实现流量采集与预处理功能,并且要保障流量采集网自身的一致性和可扩展性以满足各流量分析系统能够得到实时准确的流量,这些需求落实到方案分为以下三个方面:
图一 流量采集网架构
(1)流量采集层设备。在每个数据中心各机房模块均有部署,用于对部署各机房模块的各区不同型号网络设备的镜像流量进行采集,流量采集层设备会采用10G或40G接口接收每一个网络设备的镜像数据,并会对不同网络设备的数据打上标签以对采集点进行染色便于后续进行定位分析。同时,采集层支持对地址段、地址通讯对等大流量进行初步过滤。
(2)流量汇聚层设备。在每个数据中心的核心网络模块部署,一是汇聚同数据中心的各个流量采集层采集的数据流,二是流量汇聚分配层设备根据数据标签将流量按区域和层次进行汇总,并进行切片、去重等高级功能处理。
(3)流量分配层设备。在每个数据中心的核心网络模块部署,按需将不同的数据分配给不同的分析工具系统,同时对数据基于MAC地址、Vlan Id、IP地址和端口等2-4层特定条件进行过滤,流量分配设备可以实现对数据的末端精细化裁剪和过滤,满足不同流量分析系统对数据采集的不同要求。
流量采集网络已经是一个流量采集与管理的基础架构,实现对生产网络数据进行了全覆盖的流量采集和优化处理,可追溯任意生产IP在网络中的访问过程。在生产事件处置和应用系统架构优化改造过程中,流量采集网络均起到了重要作用。同时流量采集网络便于各流量采集系统接入并取得所需流量,避免以往各流量分析系统需直接连接网络交换机以取得流量,满足各流量分析系统的流量采集需求。
4、如何解决网络流量采集项目的中的某个难点问题?
(2)监测难点:单播泛洪监控
由于不对称路由的存在或设备软件特性等原因,局域网内存在单播泛洪现象。单播泛洪会导致交换机整体的性能下降,造成服务器及交换机的接口堵塞,影响网络的数据的正常通信。
解决方案:通过在每个区域核心交换机上监控Trunk接口数据信息,制定单播泛洪流量告警基线,能够有效预警和监控局域网VLAN范围内的单播泛洪隐患和问题,快速定位单播泛洪故障源,保护生产网络稳定。
(3)监测难点:基于流量的信息系统故障定位分析监控
应用基于流量采集网络所采集的镜像数据对应用系统故障进行智能定位分析的专家系统,TCP协议的应用在出现故障的时候,通常在TCP数据传输时会表现出某种特征,将这种特征进行提炼、组合、关联(算法)并通过软件自动计算分析后,可在较短时间内准确定位故障发生的原因和影响。
解决方案:在流量采集网络通过将特定的TCP流量过滤发送至流量分析系统,由流量分析系统制定符合实际情况的故障分析场景,实现故障智能定位和告警。
在虚拟化环境流量采集中,解封装模块作用比较重要。该模块通过Gre tunnel将采集虚拟机采集到的虚拟化流量传送至流量采集物理设备中。该模块输入是虚拟化环境中部署的采集虚拟机采集到的虚拟化环境流量,输出是经过Gre tunnel传输至物理设备且已解封装的流量。
图二 虚拟化流量采集架构
该模块主要功能是对通过Gre等封装格式的数据进行封装剥离。其工作原理:首先,在流量采集设备的物理接口配置IP地址并在该接口内启用Gre Tunnel解封装功能,当采集虚拟机采集到虚拟化环境流量后通过Gre tunnel方式把流量发送至流量采集物设备配置IP地址的接口。然后,流量采集设备通过解封装模块将Gre封装格式的虚拟化环境流量包解封装,这样流量采集设备即可得到虚拟化环境采集到的流量。最后,流量采集设备再可通过过滤和高级功能处理将虚拟化环境流量进行加工后发送至需要的流量分析系统。通过以上步骤各流量分析系统可以取得所需的虚拟化环境流量。
流量采集网络产品选型包括是采用支持集群管理的设备还是仅支持单独管理的设备、在流量高级功能处理上是采用支持可扩展的背板引擎技术还是基于接口的技术以及虚拟化流量采集是基于各个流量分析系统分别独立部署采集探点的方式还是由流量采集网络统一采集虚拟化流量再分发给各个流量分析系统的方式,这些技术都是流量采集网络产品选型时需要考虑的要素,下面针对这些技术进行详细对比:
(1)集群技术与单台管理
目前市场上流量采集产品部署技术主要有能够支持集群管理的流量采集产品和独立部署的流量采集产品,而金融业的特点是数据中心多且同一数据中心内也是多个模块化机房,网络交换机分布位置较多,因此需要在各数据中心各模块化机房分别部署流量采集产品。在此种应用场景下,支持集群技术的流量采集产品可以实现对整个流量采集网络的流量统一管理,而独立部署的流量采集产品需要对每台流量采集产品进行单独的管理给流量整体分析和处理带来不便,所以在产品部署结构方面集群的部署方式相比单台设备的部署方式更适合数据中心流量采集网络应用场景。
(2)基于引擎的高级功能处理技术与基于接口的高级功能处理技术
基于引擎的高级功能技术是根据规则进行高级功能的调用模式,方便灵活地实现整个设备和集群内任意流量的高级功能处理;基于接口的高级功能技术是针对该接口的流量进行高级功能处理。基于引擎的高级功能技术与基于接口的高级功能技术其本质区别是硬件架构的不同,基于引擎的高级功能技术是采用可编程的高性能处理运算单元实现功能的开放定制,基于接口的高级功能技术是在接口启用的高性能的处理芯片(功能固化),因此在技术架构上两者就有本质的区别。基于引擎的高级功能技术是按需定制的功能,基于接口的高级功能技术都是芯片原有的功能,因此基于引擎的高级功能技术在流量处理上功能更加灵活和细致。例如数据包截短的高级功能,基于引擎的高级功能处理可以在输出接口针对不同的协议配置不同截短处理,同时截短的数据包大小可自定义。基于接口的高级功能处理只有截短或不截短两种处理方式,而且截短的大小也是固定的。面对各流量分析系统不同的流量采集需求,基于引擎的高级功能处理可以提供更加灵活的流量加工和过滤以满足各流量分析系统的采集需求。
(3)虚拟化流量集中采集技术与虚拟化流量独立采集技术
虚拟化流量集中采集技术是指虚拟化流量由部署在虚拟化环境中的采集虚拟机统一采集后发送至流量采集网络物理设备,再由流量采集网络物理设备对流量进行汇总过滤和高级功能处理后发送至各流量分析系统的技术。虚拟化流量独立采集技术是指各流量分析系统各自独立部署虚拟化流量采集探点进行流量采集和分析的技术。虚拟化流量独立采集技术随着流量分析系统的数量增多在虚拟化环境部署探点数量也增加,从而引起各探点在虚拟化环境资源占用和性能消耗过度的问题。虚拟化流量集中采集技术是一次投入可以服务于多个流量分析系统,既对虚拟化环境资源进行合理使用同时有效控制投资成本。
三、工程实施
流量采集网络覆盖各生产区域的镜像流量采集,包括物理网络区域流量采集和虚拟化环境流量采集。由于流量采集网络采集的数据质量直接影响各流量分析设备的监控和安全防御准确性,所以流量采集网络建设需要严格把控每一项工程步骤的进度与质量,流量采集网络项目建设主要包含以下工程步骤:
(1)流量采集网络需求分析。该步骤主要是深入调研流量采集网络目前面临的问题,例如互联带宽过载、流量分配层接口数量资源有限无法满足各流量分析系统接入需求、虚拟化环境流量如何采集,同时结合新的系统的监测要求及流量采集网络建设的技术趋势,找出流量采集网络现状与战略趋势的差距,提出新的项目建设需求点。
(2)流量采集网络的整体方案及架构设计。该步骤是依据流量采集网络目前的需求及未来可预见的扩容计划进行方案和架构设计,包括流量采集网络分层可扩展架构和虚拟化环境流量采集架构设计。
(3)流量采集网络的环境资源准备。主要做好资源的预留与申请,包括流量采集网络设备机柜资源和大带宽布线资源,以及虚拟化环境的服务器资源的申请与预留。
(4)流量采集网络硬件设备上架部署与软件设备安装采集。该步骤主要是流量采集网络硬件设备的上架与部署和虚拟化环境采集环境的搭建安装。
(5)流量采集网络的上线试运行。该步骤主要确认流量采集网络采集的物理设备镜像流量和虚拟化环境流量的质量是否可用,并能够按需传输至各流量分析系统。
(6)流量采集网络规则优化。该步骤是流量采集网络对数据近一步加工处理的过程,确保流量采集网络可以按照各流量分析系统的需求对数据进行过滤和高级功能处理,并准确发送至相应的流量分析系统。
四、项目运维
网络流量采集平时运维工作主要分为以下两个方面:
(1)系统级:根据各个流量分析系统的采集需求,将特定需求流量发送至指定流量分析系统。首先由需求方通过线上提出流量采集需求单,经过审批通过后方可进入网络团队。网络团队根据流量采集需求单准备变更方案及步骤。并在网络团队变更窗口进行实施同时通知流量需求方进行验证。
(2)产品级:定期对流量采集网络进行巡检,发现设备软硬件问题及时更换解决。
流量采集网络的人员配置和任务分配:
(1)人员配置:两名行员和两名驻场人员。
(2)任务分配:行员:关注和推进流量采集网络技术发展;牵头解决流量采集网络发生和碰到的问题;实施流量采集网络相关变更。驻场同事:掌握流量采集网络技术;配合处置流量采集网络问题;准备和复核流量采集流量网络日常变更。
网络流量采集运维工作难点:
(1)流量采集网络需求涉及范围比较大且实施时间比较紧给变更人员准备时间较短。
解决方案:尽量请各流量采集网络需求部门提取规划流量采集需求并及时根据自己的需求提流量采集需求单,并在流量需求评审环节增加把控力度,确保流量采集需求合理性和合规性。
(2)各流量分析接入流量采集网络的需求日益增大且对流量采集数据质量的要求不断提升,流量采集网络如何稳定地提供质量优良的采集数据成为重点。
解决方案:根据流量采集需求日益增多的实际情况和对数据质量要求的不断提高,计划对流量采集网络进行架构架构优化,设计流量采集网络分层架构部署方案同时各层之间采用大带宽互联,确保流量采集网络既能方便后续扩容又可以保证流量采集网络各层设备传输数据时的质量。对流量采集需求进行重新梳理和规划,实现按分析系统采集需求维度对数据进行二次归类,优化现网流量采集过滤策略,化繁为简使不同流量分析系统策略更加独立减少相互影响。
点击阅读原文关注社区"网络"技术主题 ,将会不断更新优质资料、文章,您也可以前往提出疑难问题,与同行切磋交流。地址:
http://www.talkwithtrend.com/Topic/785
下载 twt 社区客户端 APP
与更多同行在一起
高手随时解答你的疑难问题
轻松订阅各领域技术主题
浏览下载最新文章资料
长按识别二维码即可下载
或到应用商店搜索“twt”
*本公众号所发布内容仅代表作者观点,不代表社区立场